审查元素是前端里面经常使用的工具,观察、调试、修改网页布局、文字和视频等等都可以在审查元素里面找到,了解一些审查元素的知识对高级一点的动态网页和视频网站相关的爬虫很有帮助。知乎上有个扫盲贴《Chrome 的审查元素功能有哪些奇技淫巧?》。
用google浏览器Chrome浏览网页的时候,右键->审查元素,如果你想知道入门的教程,请看这篇文章《关于 Chrome 浏览器的调试方法》
利用审查元素的功能,最简单的应用就是修改本地的网页做成“钓鱼网页”,下面总结一下审查元素的应用。
音悦台视频下载
我们平常看到的网页就是各种标签部件和文字、超链接、媒体文件糅合在一起的界面,视频嵌在网页里面通常是以video标签形式存在的,它必然是存储在网络上某一台主机上。所以我们可以找出这个视频的URL地址,发送请求,使得可以访问(下载)这个视频。音悦台的MV很多,而且是属于比较简单提取视频地址的网站了。正常情况下,音悦台的视频是不能下载的,我们不能在播放界面另存这个视频,它的界面是这样的:
当我们在播放MV之后打开审查元素->Network,你可以按条件选择All,按Type或者Size排列,目的是识别出我们想要的视频文件(MP4或者flv格式等等)
在找到视频文件之后,我们需要分析网页发送什么请求到什么地方,才会从其他地方运送视频文件到本地电脑的内存中,这些信息可以在Headers里面查找,字段有些多,但我们直接使用Request URL,在新的浏览器标签页复制粘贴这个URL,就可以直接打开一个视频文件,还可以提供下载。
仔细分析这个URL网址,可以发现删去.flv
后面的部分也没有影响,所以我们可以直接访问这里
有趣的是,我修改了6CB7012B907E85F98235AD242B537BC2.flv
的文件名,访问仍然是正常的,起初我以为文件名是按十六进制命名的,然而修改或者删除文件名里面的内容,只要文件还是flv格式一切都很正常,以后有时间可以研究音悦台的文件命名方式。
新浪微博音乐下载
现在各家音乐播放器的版权之争很激烈,我还是喜欢网易云音乐多一点,然而由于版权的原因很多时候网易云音乐也不能让人满意。新浪微博的左下方的音乐插件的版权资源还是很丰富的,很遗憾新浪微博的音乐文件是不能直接下载的。我们需要一点技巧。
点击播放目标音频文件之后,在Network里面点击Media选项卡,找到当前网页下的媒体文件,看到文件的后缀名带有.MP3
就知道这是我们要找的东西。
我们点击这个media文件观察Request URL:这里,在浏览器复制粘贴这个地址之后,它会重新指向一个新的地址,http://musician.sina.com.cn/wpp_128/100077687.mp3,文件名不变。
通过这种办法,我们就可以下载这一首《我在人民广场吃炸鸡了》。
缺点:音频文件没有歌名,没有歌词。这大概是反爬虫的一种策略吧,把文件名去掉让别人不能完美盗取文件资源,但只要敢想,就没什么是做不了的。:)
备注: 上面的重定向链接已经失效,似乎音乐链接地址中的ssig=JWuw1Q1Lam
部分会发生动态变化而失效,歌曲来自不同版权播放器的Request URL域名也不同,比如对朴树的《生如夏花》重复Network下的操作得到的[链接]仍然可以用,新浪微博很可能是集中调用各家播放器音乐库的API,有些播放器可能比较欠抽,API返回的链接常常飘忽不定,故意让人找不到踪迹。